#transformación de recompensas

Optimización Pass@K: resuelve problemas complejos de RL

Optimiza problemas complejos de RL con PKPO. Aprende cómo esta técnica mejora pass@k y pass@1, impulsando la exploración y el rendimiento colectivo.

Aprende cómo PKPO transforma la recompensa para optimizar conjuntos de muestras, resolviendo problemas de RL más difíciles con mejor exploración.